DRA-GRPO: tu GRPO necesita rutas diversas de razonamiento matemático
Descubre cómo DRA-GRPO mejora el razonamiento matemático en LLMs al diversificar caminos de recompensa, logrando 58.2% de precisión con solo 7000 muestras y
Descubre cómo DRA-GRPO mejora el razonamiento matemático en LLMs al diversificar caminos de recompensa, logrando 58.2% de precisión con solo 7000 muestras y